這篇名聽起來很厲害,其實內容就普通,但還是可以看看我要介紹的這些技術。
先來理解一個小概念,自然語言處理(Natural Language Processing):
結合了計算機科學、AI及語言學的技術,讓計算機能夠理解、解釋和生成人類語言,核心技術包含語言模型、情感分析等等,其中「命名實體識別(NER)」這項技術能夠對應到我的主題 🧙🏻,簡單來說,它能夠自動在文本中檢測並標註特定類型的數據(姓名、地址、身份證號碼等),原理是通過訓練ML模型,識別出某些關鍵詞或模式,並將它們與特定的類型(“人名”,“地點”,“組織”,“身份證號碼”)相對應。
但如果是具「隱含意義」或「拼寫錯誤」的數據,還得靠他們的輔助:
語義分析(Semantic Analysis) 🐞:
幫助模型理解隱含寓意,與語法分析不同,它重視句子的深層含義,而非表面句構。
Ex:他前天去便利商店買東西,他的住址在附近。
模型能推測出“住址”這個訊息隱含在“他住便利商店附近”中(就算沒有直接提到具體的地址)。
實體關係抽取(Relation Extraction) 🦑:
從非結構化的句式中自動識別並識別實體之間的語義關係,通常會在文本中先確定實體後(NER先處理) 才分析。
流程Ex:
- 實體識別(NER):從「Steve Jobs是蘋果公司的創辦人」這句話中識別出兩個實體:「Steve Jobs」(人名)和「蘋果公司」(組織)。
- 關係識別:「Steve Jobs」和「蘋果公司」之間的關係可以被標註為「創辦者」(founder- of)。
Transformer 架構 🗼:
深度學習架構,用於處理序列數據,使用自注意力機制(self-attention),可同時考慮句式中所有單詞的關聯性。與 LSTM 不同,Transformer架構不需要逐字處理序列,而是並行處理,因此在大多數 NLP 任務中更有效,最著名的應用包括 BERT 和 GPT 等模型。
模糊匹配技術(Fuzzy Matching)🛟:
用於識別與原始數據相似數據。這種技術通常用於搜索引擎、拼寫的自動糾正或名稱匹配中,允許一定程度誤差,例如拼寫錯誤、縮寫等,並找到與預期結果足夠接近的目標。
字符級別模型(Character-level Models)📮:
在處理單詞或短語前,先分析單字符的序列,因此,它在處理拼寫錯誤、變形或創意拼寫時比“詞”級別模型更加靈活。